09. 数据类型总结
数据类型总结
概括
下表总结了我们的数据类型。
|
数据类型
| | |
|---|---|---|
|
数值:
|
连续
|
离散
|
| | 身高、年龄、收入 | 书中的页数、院子里的树、咖啡店里的狗 |
| | | |
|
分类:
|
定序
|
定类
|
| | 字母成绩等级、调查评级 | 性别、婚姻状况、早餐食品 |
以下是上表中分享的信息的一些细节。
要扩展表中的信息,你可以查看以下文本。
换个角度看
要分解我们的数据类型,主要有两大块:
数值 和 分类
数值
可以进一步分为
连续
与
离散
。
分类
数据可以分为
定序
与
定类
。
你现在应该已经掌握了我们周围世界里的哪种数据属于这四大类:离散、连续、定类和定序。在后面的小节,我们将详细介绍与数值变量有关的数值总结。
数值与分类
其中一些可能有点棘手 —— 虽然邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。
身高
、
年龄
、
书中的页数
和
年收入
采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是
数值
数据。
性别
、
字母成绩等级
、
早餐类型
、
婚姻状态
和
邮政编码
可以视为一组物品或个人的标签。因此,它们是
分类
数据。
连续和离散
要区分我们的数据是连续还是离散的,要看我们是否能将数据分割成更小的单元。想想时间 —— 我们可以用年、月、日、小时、分钟或秒来衡量一个事件,甚至是在秒级,我们知道仍然有更小的单位可以用来衡量时间。因此,我们知道此数据类型为连续的。
身高
、
年龄
和
收入
都是
连续数据
的例子。或者,我们知道
书中的页数
、
我数的咖啡店外的狗数量
或
院子里的树
为
离散数据
。我们可不想将狗一分为二。
# 定序与定类
在看定类变量时,我们发现
性别
、
婚姻状态
、
邮政编码
和
早餐食品
为
定类变量
,这种类型的数据没有相关的顺序排列。无论你早餐吃麦片粥、吐司、鸡蛋还是只喝咖啡,它并没有相关的排序。
相反,
字母成绩等级
或
调查评级
作为
定序数据
具有关联的排序。如果获得 A,它高于 A-。A- 的排名高于 B+,以此类推……定序变量在评级量表上很常见。在很多情况下,我们将这些定序变量变为数字,这样可以更容易地进行分析,稍后我们再详细说明这一点!
总结
在本节中,我们研究了我们会在生活中使用的不同数据类型。当我们在现实生活中使用数据时,它可能不是很干净,有时会有错字或值缺失。在这种情况下,拥有数据方面的专业知识并了解数据类型可以帮助我们清理数据。理解数据类型也可以帮助我们创建可视化来解释数据。稍后详细说明这点!